具身智能简史、现状与未来展望

深圳市人工智能与机器人研究院

2024-09-15

The following article is from AI科技大本营 Author 《新程序员》

【编者按】我们通向 AGI 有哪些必由之路？张钹院士表示我们需要四步走，分别是对齐、多模态、Agent、具身智能。本文作者对具身智能进行了系统的总结，并提出，通过数据向机器人传授物理定律是阻碍机器人在日常生活中广泛应用的直接障碍。我们需要教会具身智能系统理解物理定律，使它们能够在物理世界中顺利运行。

作者 | 刘少山、吴双、丁宁

责编 | 唐小引

出品丨《新程序员》编辑部

具身智能（Embodied Artificial Intelligence，简称 EAI）将人工智能融入机器人等物理实体，赋予它们感知、学习和与环境动态交互的能力。本文简要回顾了 EAI 的历史、当前发展以及未来展望。

EAI 的早期基础

罗德尼·布鲁克斯（Rodney Brooks，现代机器人之父）在 1991 年发表的研究论文《没有表征的智能》[1]提出了一种对智能的根本性重新思考。布鲁克斯反对传统的认为智能必须基于复杂算法或内部数据模型（即“表征”）的观点。他认为，智能行为可以直接从自主机器与其环境的简单物理交互中产生，而这种交互不依赖于预先设定的复杂算法。

布鲁克斯的这一理论基于他对昆虫行为的观察，提出了一个称为“行为主义智能”（Behavior-based AI）的概念，该概念强调通过与环境的直接物理交互来生成行为，而不是通过内部世界模型。这种方法的核心在于，智能系统不应该首先处理抽象的内部世界表征，而是应该能够直接响应外部环境的刺激。

这一理念对后续的机器人研究产生了深远影响，尤其是在自主移动机器人和实时处理系统的设计方面。布鲁克斯的工作推动了一系列以“底层智能”（即从简单的感知反应机制逐渐累积到复杂行为的生成）为基础的研究，这种研究试图模仿生物体中观察到的自然和自适应行为。他在麻省理工学院的人工智能实验室进行的研究，特别是他开发的移动机器人“Genghis”，展示了这种设计哲学的实际应用，该机器人能够在没有复杂中央控制系统的情况下，在复杂环境中导航。

在 1999 年，罗尔夫·普费弗（Rolf Pfeifer）和克里斯蒂安·谢尔（Christian Scheier）合著的《理解智能》（"Understanding Intelligence"）一书中，他们提出了一种全新的智能理解方式，这种方式突破了传统认为智能仅仅源自大脑或算法的局限[2]。普费弗和谢尔的观点是，智能是行为主体的整个身体结构和功能的综合体现，他们强调了身体对智能形成的根本影响，这一理论后来被称为“身体化智能”（Embodied intelligence）或“身体化认知”（Embodied cognition）。

这本书认为，智能行为是通过身体与环境的直接相互作用产生的，而不仅仅是大脑内部的计算过程。这种观点与传统的以大脑或计算为中心的智能理解形成了鲜明对比。例如，普费弗和谢尔指出，动物和机器人的移动能力不仅仅是通过中央控制系统指令的结果，而是其身体结构与特定环境因素相互作用的直接结果。身体的形态和物理性质，如形状、质量分布、弹性等，都会直接影响智能行为的生成。此外，书中还探讨了智能系统设计中的“形态计算”（Morphological computation）概念，即利用物理身体结构来简化控制问题，这种方式可以减少需要通过传感器输入和神经控制处理的信息量。例如，昆虫的步态控制就大量依赖于其身体结构的被动动态特性，而不完全依赖于神经反馈机制。

琳达·史密斯（Linda Smith）在 2005 年提出的“具身假说”（Embodiment Hypothesis）是从认知科学的角度对智能的理解提出了新的视角[3]。这一理论主张，人类的认知过程不仅仅是大脑内部的抽象思考，更多地是通过身体与物理环境的直接互动实现的。

根据“具身假说”，我们的思维、感知能力以及其他各种能力的发展，都是人们通过身体与环境的持续互动而逐渐形成的。这种观点强调，身体不仅是感知世界的工具，更是影响和塑造认知结构的主体。例如，婴儿通过触摸和操作物体学习物理规律，或者通过视觉和运动的协调来理解空间关系。这些行为展示了身体在认知过程中的积极作用。

具身假说还特别强调了环境在认知发展中的作用，认为环境的结构和特性不仅提供了感官输入，还直接参与了认知能力的形成。例如，一个物理环境中的对象和空间布局会影响个体的动作选择和感知发展，进而影响认知结构的建立。环境的这种参与作用，使得认知发展与环境的特定条件紧密相关。

琳达·史密斯的工作扩展了我们对认知科学的理解，将传统关注点从大脑的内部机制转移到了身体与环境的动态交互上。这种观点对教育、人机交互设计以及人工智能等领域提供了新的研究方向和实践策略，强调了设计与环境适应性的重要性。此外，具身假说对于理解特定身体条件下的认知差异（如残疾人的感知和认知体验）提供了重要的视角，有助于我们更全面地理解人类的多样性和复杂性。

这些基础研究提出的三个原则，为开发具身人工智能（EAI）系统提供了重要的指导思想。下面是这三个原则的具体展开：

1. EAI 系统不能依赖预定义的复杂逻辑来管理特定场景。

这一原则强调，EAI 系统应当能够灵活应对多变的环境，而不是仅仅执行固定的、预设的程序。这要求系统能够在没有详尽预设条件的情况下，通过实时的感知和处理，对环境做出反应。例如，一个自动导航的机器人，在未知的环境中，应当能够根据当前的障碍物和地形，实时规划出最佳的行进路线，而不是单纯依赖于预先编程好的路径。

2. EAI 系统必须包含进化学习机制，使其能够不断适应运行环境。

进化学习机制允许 EAI 系统从经验中学习，并随着时间的推移优化其性能。这类学习机制通常涉及一些机器学习算法，如强化学习，这些算法可以使系统根据其与环境的互动进行自我调整。例如，一个清洁机器人在不断清洁的过程中，会学习哪些区域更容易积累污垢，从而在未来的清洁过程中调整其清扫路线，提高清洁效率。

3. 环境在塑造物理行为和认知结构方面起着关键作用。

这一原则认为，环境不仅仅是 EAI 系统操作的舞台，更是影响和塑造该系统行为和认知发展的关键因素。环境的每一个组成部分，从物理结构到社会互动，都可能对 EAI 系统的发展产生深远的影响。因此，理解和利用这种环境影响，可以显著提高系统的适应性和智能性。例如，一个适用于户外救援的机器人，需要能够识别不同的自然环境特征（如河流、泥泞地面等），并根据这些特征调整其救援策略，以确保操作的安全性和有效性。

这三个原则共同构成了一个强大的框架，指导研究人员和工程师设计出更为智能、自主和适应性强的 EAI 系统。通过不断地学习和适应，这些系统有望在各种复杂和动态的环境中发挥关键作用。

EAI 发展现状

大型语言模型（LLMs）、视觉语言模型（VLMs）等基础模型的最新进展，以及 ChatGPT 等技术在人形机器人中的应用[4]，使人们普遍认为 EAI 仅仅是让这些基础模型在机器人中执行推理任务，以增强机器人的认知能力，这种想法是不完整的。

GPT-4、BERT、CLIP 和 DALL-E 等基础模型增强了机器人解读视觉和文本信息的能力，显著提高了机器人的感知能力。这些模型使机器人能够通过理解上下文、物体和指令来执行复杂的任务，更接近于人机交互[5]。此外，这些基础模型也符合 EAI 系统设计的原则一，即这些基础模型的推论不依赖于管理特定场景的预定义逻辑。

具体来说，尽管这些模型提供了强大的信息处理能力，使得 EAI 系统能够在没有预设特定逻辑的情况下处理复杂场景，但它们本身并没有解决机器人如何从物理环境中持续学习和适应的问题。为了真正实现自适应的 EAI 系统，必须将这些基础模型与进化学习机制相结合，通过不断的试验和错误来优化行为策略。此外，我们还需要开发一个虚拟环境，以有效地与 EAI 系统进行交互，因为获取真实世界的交互数据成本极高，效率极低[6]。

图 1 深度进化强化学习(DERL) 框架[7]

深度进化强化学习（Deep Evolutionary Reinforcement Learning，DERL）框架[7]的开发就是原则二的一个体现。此框架不仅能够演化出适应各种环境挑战的代理形态，还可以在这些形态基础上优化神经控制器的参数，以实现高效的任务学习。这一过程体现了环境复杂性、形态智能与控制学习能力之间的深刻联系。

通过 DERL 框架，研究者能够在不同的环境复杂性中，测试和优化代理的形态设计，使其更适应环境给予的物理挑战。例如，在变化的地形中，代理需要能够适应不同的障碍和地面条件，这要求它们具有更复杂和适应性强的形态结构。DERL 通过模拟演化过程中的自然选择，快速筛选出能够更快学习的形态，从而在代理的生命周期早期就能表现出学习后期的行为。这一过程也被视为形态鲍德温效应（morphological Baldwin effect）的首次证明。

此外，DERL 框架的设计使其在进行形态演化和学习控制任务的同时，减少了所需的学习数据，提高了学习效率。这一特点尤其重要，因为它不仅降低了从生物传感数据中直接学习控制器的样本低效问题，还能够在多个新任务中实现更好的泛化能力。这表明，通过在模拟环境中同时进行学习和演化，可以系统地探索智能形态如何通过物理互动简化控制问题，从而加速代理的学习过程，并最终提高其在多种任务中的表现。

图 2 Habitat 仿真平台[8]

有了扩展机器人认知能力的基础模型和适应新环境的进化学习框架，一个能有效模拟真实世界并与 EAI 系统交互的虚拟环境对于满足原则三是必不可少的。最近的一个例子是 Habitat 平台[8]，Habitat 平台为 EAI 系统的开发提供了一个高效且逼真的三维模拟环境，极大地促进了虚拟机器人训练的实现和发展。Habitat 平台包括 Habitat-Sim 和 Habitat-API 两个主要组成部分，前者是一个高性能的 3D 模拟器，能够以极高的速度渲染复杂场景，后者则是一个高级库，用于定义、配置、训练和评估 EAI 算法。

通过 Habitat 平台，研究者能够在一个控制且可复制的环境中进行大规模实验，这在以往是不切实际或者说只是理论上可能的。例如，平台已经用于比较不同的学习和 SLAM（同时定位与地图构建）方法在点目标导航任务上的表现。研究表明，当扩展到远超以往实验的经验规模时，基于学习的方法能够超越 SLAM 方法。此外，Habitat 还进行了首次的跨数据集泛化实验，测试了多种传感器配置下的代理在不同数据集间的泛化能力。结果显示，配备深度传感器的代理能够更好地在不同数据集之间泛化。

未来展望

通过整合上述三个组件，我们可以建立一个功能齐全的 EAI 系统，该系统能够动态适应不同的操作环境。下一步自然是教机器人理解物理世界，例如重力的概念。我们认为，通过数据向机器人传授物理定律是阻碍机器人在日常生活中广泛应用的直接障碍。

尽管人工智能和机器人技术取得了长足进步，但目前的机器人系统仍然缺乏对物理世界深入、直观的理解。研究表明，虽然机器人可以执行某些任务或模仿人类行为的某些方面，但它们并不具备真正的类人理解能力[9]。要解决这个问题，可以生成与虚拟环境的精确物理交互数据，并通过进化学习机制利用这些交互数据改进基础模型。

图 3 通过数据教授机器人物理定律[12]

人们已经探索了几种教授机器人物理定律的方法[10][11][12]。比如，PLATO 就是解决这一问题的方法之一，它被提出通过观看模拟视频来学习物理，视频中的物体按照物理定律进行交互[10]。该系统可以区分现实场景和非现实场景，例如物体消失或出现不可能的行为。通过用物体遵循可预测物理定律的视频训练 PLATO，人工智能学会了预测和理解基本物理概念，从而增强了对物理世界的一般推理能力。

PLATO 系统利用了发展心理学的中心见解，即物理是在离散对象及其相互作用的水平上理解的。PLATO 通过学习从视觉数据直接学习物理知识，该系统不仅模仿儿童的视觉认知学习，而且通过违反期望（VoE）范式来评估对直观物理的概念性理解。PLATO 通过观察模拟的物理不可能（例如物体穿过墙壁或瞬间移动到另一个位置）和物理可能的事件来培养对基本物理概念的理解。系统通过分析这些场景，学习预测哪些场景是物理不可能的，从而提高了对物理世界的一般推理能力。

此外，PLATO 使用了一个对象跟踪系统（通过一个被称为 ComponentLSTM 的结构化递归神经网络），它不仅追踪每个对象的历史，还预测了下一时间步的对象状态。这种方法允许 PLATO 对动态环境进行建模，并在时间上跟踪对象的相互作用和状态变化。这个系统的训练涉及使用大量的模拟视频数据，这些数据展示了各种物理事件，例如对象的运动、碰撞和遮挡。通过这种方式，PLATO 能够从复杂的视觉输入中学习并构建出一组物理概念，这些概念在实际动作、概念知识和组成表征中至关重要。

结论

本文追溯了 EAI 从概念基础到现代应用和未来挑战的演变过程。我们特别强调了开发 EAI 系统的三个原则：

首先，EAI 系统不得应用预定义的复杂逻辑来管理特定场景。

其次，EAI 系统需要纳入进化学习机制，以持续提供反馈。

第三，需要一个与 EAI 系统交互的虚拟环境来生成交互数据。

最近的研究进展已经分别满足了这三个原则，但我们还没有看到一个功能完善的商业系统将所有三个部分都整合在一起。当这样的系统准备就绪时，一个迫在眉睫的挑战就是教会 EAI 系统理解物理定律，使它们能够在物理世界中顺利运行。

参考文献：

1. Brooks, R.A., 1991. Intelligence without representation. Artificial intelligence, 47(1-3), pp.139-159.

2. Pfeifer, R. and Scheier, C., 2001. Understanding intelligence. MIT press.

3. Smith, L.B., 2005. Cognition as a dynamic system: Principles from embodiment. Developmental Review, 25(3-4), pp.278-298.

4. OpenAI and Figure AI develop humanoid robot, BBC News, https://www.youtube.com/watch?v=cjVMQl9pVB0, accessed 4/23/2024

5. Hu, Y., Xie, Q., Jain, V., Francis, J., Patrikar, J., Keetha, N., Kim, S., Xie, Y., Zhang, T., Zhao, Z. and Chong, Y.Q., 2023. Toward general-purpose robots via foundation models: A survey and meta-analysis. arXiv preprint arXiv:2312.08782

6. Liu, S, The Value of Data in Embodied Artificial Intelligence, Communications of the ACM, https://cacm.acm.org/blogcacm/the-value-of-data-in-embodied-artificial-intelligence/

7. Gupta, A., Savarese, S., Ganguli, S. and Fei-Fei, L., 2021. Embodied intelligence via learning and evolution. Nature communications, 12(1), p.5721.

8. Savva, M., Kadian, A., Maksymets, O., Zhao, Y., Wijmans, E., Jain, B., Straub, J., Liu, J., Koltun, V., Malik, J. and Parikh, D., 2019. Habitat: A platform for embodied ai research. In Proceedings of the IEEE/CVF international conference on computer vision (pp. 9339-9347).

9. Torresen, J., 2018. A review of future and ethical perspectives of robotics and AI. Frontiers in Robotics and AI, 4, p.75.

10. Piloto, L.S., Weinstein, A., Battaglia, P. and Botvinick, M., 2022. Intuitive physics learning in a deep-learning model inspired by developmental psychology. Nature human behaviour, 6(9), pp.1257-1267.

11. Buschoff, L.M.S., Schulz, E. and Binz, M., 2023, July. The acquisition of physical knowledge in generative neural networks. In International Conference on Machine Learning (pp. 30321-30341). PMLR.

12. Kadambi, A., de Melo, C., Hsieh, C.J., Srivastava, M. and Soatto, S., 2023. Incorporating physics into data-driven computer vision. Nature Machine Intelligence, 5(6), pp.572-580.

本文经授权转载自微信公众号「AI科技大本营」（ID：rgznai100）

继续滑动看下一个

深圳市人工智能与机器人研究院

向上滑动看下一个

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

许纪霖：珠海驾车撞人事件的背后，弦绷得太紧了，要给人们以松弛感 | 二湘空间

刑讯逼供、管辖异议，唐山杨立国涉黑案争议

具身智能简史、现状与未来展望

您可能也对以下帖子感兴趣

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

许纪霖：珠海驾车撞人事件的背后，弦绷得太紧了，要给人们以松弛感 | 二湘空间

刑讯逼供、管辖异议，唐山杨立国涉黑案争议

生成图片，分享到微信朋友圈

具身智能简史、现状与未来展望

您可能也对以下帖子感兴趣